<?php  
  
//有些网页加载时间比较长，可以通过动态设置执行最大时间，可选  
//ini_set("max_execution_time", "45");  
  
//有些网页有防盗链，可以模拟成浏览器去请求，可选  
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');  
  
  
$url = 'http://news.sohu.com/';  
  
  
//也可以用fopen或者强大的curl  
$info=file_get_contents($url);  
  
//针对编码问题，可以转码，可选  
//$info =  mb_convert_encoding($html,'utf8','gbk');  
  
//如果想只匹配一次，可以用preg_match函数    <li><a href="http://society.sohu.com/" target="_blank">社会</a></li>
// preg_match_all('/<li><a href="(.*)" title="" .*>(.*)<\/a><\/li>/i',$info,$m);  
preg_match_all('/<li><a href="(.*)" (.*)>(.*)<\/a><\/li>/i',$info,$m);  
  
//结果已经出来啦  
var_dump($m);  
  
//把找到了链接和新闻，组装成k=>v形式，这样方便展示到自己的页面上  
$news = array_combine($m[1],$m[2]);  
  
// var_dump($news);  